omoikane embeddedをいれてみる(tsuzumik)
+1tsuzumik.icon
いれてみよう!になってなかった
自分のプロジェクトにベクトル検索をいれる価値が ピンとこなかった
からの
この発想素晴らしすぎる
pickleが名刺になるのか
これを連想した
書籍でなくpickle を売るコンサルタントとか出てきそう
(pickleが何かまだよくわかっていない)
単なるシリアライズ形式の一つという理解、Pythonのプリミティブが扱えるjson的なものだと思っているinajob.icon
なるほどですtsuzumik.icon
Pythonで標準サポートされてて圧縮されてJSONよりコンパクトになるファイル形式nishio.icon
ありがとうございます。ファイル形式かtsuzumik.icon
もともと言いたかったのは、「人やキャラクターを表すベクトル形式のデータ」みたいなこと
jpgというと画像のことと伝わるように、拡張子で呼んでしまった
これ名前付かないだろうか
pickleじゃなくてqdrantのAPI利用権を売るのかも
sampleをqdrantにuploadするところまでで2時間ほど
windows pythonつらいな。。という所感
アプリケーションがもう少し充実してからでもよいかもしれない
2,3年したらレイトマジョリティ向けのパッケージができてるはず
ここ難しい、自分でやったほうが早いのでこれを機にやってみるのを推奨すべきでは?
もう少し言語化したい
まさにこのプロジェクトに関していうと使ってる人が数人しかいないので、面白いと思ったら乗っていかないと活動自体がなくなるのでは?と思って自分は取り組んでみたinajob.icon
これに限らずだと世の中的にChatGPTはまだまだアツいので待ってれば何か出てくる気はする
Notaがやらない限りScrapboxに統合されることはなさそうnishio.icon
そしてScrapboxにAIが書き込むことはNotaのビジネス上有益かどうか割と怪しいので実装の優先度は低そう
データの標準化とかはないのかな?inajob.icon
書籍のベクトルデータとか標準形式があると他で作られたものとかも取り込めて良さそう
langchainまわり何も知らんな
書籍やPDFを対象に加えるタイミングでlangchainに揃えるってのは一つの選択肢ではあるなnishio.icon
Langchainだとどんな保存形式がサポートされてるのかを一旦確認するのは手
Github (Actions)はCICDだから、初回一回試すだけなら不要かも?
yesnishio.icon
逆に、下手にローカルの環境整えるよりGithub Actionsに載せるほうが早かったかもしれない
CICDのトラブルシュート苦労するイメージだった
めっちゃ苦労するのでローカルで動く環境があることは前提な気持ちnishio.icon
この「ローカル」が本当にローカルマシンである必要はないので、たとえばGoogle Colabで動かすなどは可能かもしれない
(どっちがいいのかわからない、長い目で見たらローカルの方が試行錯誤しやすくて便利なのは間違いないはず)
WindowsのPythonがよくわからないnishio.icon
自分はWindowsのPythonですね、確かに罠が多いinajob.icon
選択肢も多い、WSLとかDockerとかでやるのもある
+1tsuzumik.icon
選択肢が多いのがよくない
検索での独学が機能しにくくなる
コマンドプロンプトなのかGit BashなのかDockerなのかで実行方法が違う
初学者にとっては、何もわからない状態で環境の違いを意識するのは苦痛だと思う
ただHello Worldしたいだけなのに
最初に見えるのがファイル実行じゃなくてインタプリタだったの悲しみ
とりあえずcloneしてみよう
privateのPCでターミナルを開く方法を忘れている
さすがにそろそろprivateもMacにしようか。。
gitが入っていなかった
入れた記憶がある
コマンドプロンプトじゃなくてGit bashがあった
貼り付けのショートカットがShift+Insとかいう謎仕様
scrapboxからJSONエクスポート
windowsのpythonの癖が強すぎて苦戦中
pythonの環境構築に1時間くらいかかってしまった。。
日々の資産が
python make_vecs_from_json/test.py の理屈が分からない
小さいテスト用のjsonはどこにある?
確かに同梱されてなさそうinajob.icon
ありがとうございます!
まぁ小さなプロジェクト作ってexportすれば良い
確かにですtsuzumik.icon
あれっnishio.icon
専用のを作ったのにコミットしないままどこかに行ってしまった
固定文字列で差し替えてる?
PROJECTの設定は本番と同じく必要そう
自分のプロジェクトをtest.pyでやるとRate limitエラーが出た(Free Trial)
少し課金したがすぐには状況変わらず
OpenAI課金後24時間のレートリミットがあるためnishio.icon
みんなここで落とし穴にハマるのでOpenAIには改善してほしいw
今確認したら48時間に増えてた
なるほどです。ということはこの週末には無理っぽいですね……tsuzumik.icon
上記tiny_sample.jsonはPASS
課金したからか、jsonのサイズによるのか切り分けていない
qdrant
uploadはできる
サンプルだと何が起きてるかわからない
自分のプロジェクトを使えばpointがたくさんできて、類似度検索ができるようになる?
レポート書き込み
ここは少し変えたい
対話式にしたい
アーキテクチャよくわかってない
OpenAI APIとQdrantの役割が
Qdrant
もしかして、この時点では要約しかしていない
ベクトル(Qdrant)は使ってない?
ありがとうございます!tsuzumik.icon
No、えーと...nishio.icon
/nishioで動かすバージョンでゴリゴリ開発した後、/omoikaneと/unnamed-campにも入れたけどcoreに入ってない(2023-09-02時点)Recurrent Notesの機能ですね fill_with_related_fragmentsがローカルのpickleから検索してる
将来的にはQdrantから検索する形と選択可能にしようと思ってる
なるほど。ありがとうございます!tsuzumik.icon
ローカルのpickleを使えるということは、Qdrantがなくても動くのか
これです。ありがとうございますtsuzumik.icon
この上にどんなアプリケーションを作るかはまだ委ねられていそう
構想
問題がある
相談する(ChatUI)
案A
まずGPTからの回答を出し、その出力でベクトル検索し、類似度の高いページを読ませて、要約し、最終的な回答にする
案B
問題でベクトル検索し、類似度の高いページをGPTに入力して、それから回答を作らせる
Bの方がpickleに宿った個性が出やすいと思っている
回答が出力される
まず自分のProjectをベクトル検索できる状態を体験してみよう
TDL
(Rate Limit明けを待つ)
自分のプロジェクトのpickleを作る
fill_with_related_fragmentsを試してみる
いっそ他のプロジェクトのpickleで試す?nishio.icon
確かに!ありがとうございますtsuzumik.icon
pickle公開するのはちょっと抵抗あるtsuzumik.icon
(感性について自虐しようと思ったけどあまりいい雰囲気じゃなくなりそうなのでやめた跡)
使いたい人がいたら個別に連絡ください
受けた恩恵は還元したいという気持ち